Romper el Bloque: Bloques de Razonamiento de Tamaño Dinámico para Modelos de Lenguaje Grandes de Difusión mediante Descenso de Entropía Monotónica con Aprendizaje por Refuerzo
Rompiendo el bloque: aprende cómo el descenso de entropía y el RL optimizan el razonamiento dinámico en modelos de difusión.